百分位数 - 快速入门与示例
作者:Ruben Geert van den Berg,归档于 Statistics A-Z
第 n 个百分位数是将最低 n % 的值与其他值分隔开的值。
例如:体重的第 10 个百分位数是 60 公斤。这意味着 10% 的人体重低于 60 公斤,90% 的人体重高于 60 公斤。
- 百分位数 - 简单示例
- 百分位数 - 插值公式
- PERCENTILE.EXC 还是 PERCENTILE.INC?
- 在 SPSS 中计算百分位数
- 四分位数、中位数和箱线图
百分位数 - 简单示例
一些渔民捕获并测量了 100 条鳟鱼。由此获得的数据位于 这个 Googlesheet 中,部分内容如下所示。
那么这些鳟鱼长度的第 10 个百分位数是多少呢?对于我们的 100 个观测值,这非常简单。我们只需要:
- 按升序对长度进行排序;
- 对长度进行排名,同时忽略重复值(出现多次的值);
- 找到观测值 10(10% 的 100 个观测值)和 11(下一个观测值)之间的长度。
如上面的截图所示,观测值 10 和 11 的长度均为 31 厘米。这是长度的第 10 个百分位数,Excel 或 SPSS 都可以轻松确认。
遗憾的是,现实生活中的数据很少如此简单。例如,如何从 N = 141 个观测值中找到第 15 个百分位数?
在这种情况下,我们最好使用一个或两个简单的公式。我们将演示如何使用它们来找到长度的第 15 个百分位数。
百分位数 - 排名公式
百分位数 \(pct\) 是一个值,其 \(Rank_{pct}\) 定义为
\[Rank_{pct} = \frac{pct}{100} \cdot (N + 1)\]
其中
- \(Rank_{pct}\) 表示某个百分位数 \(pct\) 的排名;
- \(N\) 表示样本大小或总体大小。
因此,100 个观测值的第 15 个百分位数是排名为
\[Rank_{15} = \frac{15}{100} \cdot (100 + 1) = 15.15\]
遗憾的是,没有排名为 15.15 的观测值。因此,我们查看 我们的 Googlesheet 中最接近的排名,即 15 和 16。
请注意
- 观测值 15 的长度为 31 厘米;
- 观测值 16 的长度为 32 厘米。
如果两个值相等(如排名 10 和 11 之间,均为 31 厘米),我们将报告该值。但是,第 15 个百分位数是介于 31 厘米(排名 15)和 32 厘米(排名 16)之间的某个值。
很可能想简单地报告平均值,即 31.5 厘米。但是,15.15 更接近排名 15,而不是排名 16。通常通过 线性插值 来考虑这一点。
百分位数 - 插值公式
对于非整数排名,通常使用以下公式计算精确的百分位数:
\[Pct = X_{tr} + (X_{tr + 1} - X_{tr}) \cdot ({r - tr})\]
其中
- \(Pct\) 表示所需的百分位数;
- \(r\) 表示所需百分位数的十进制排名;
- \(tr\) 表示所需百分位数的截断排名;
- \(X_{tr}\) 表示截断排名的分数;
- \(X_{tr + 1}\) 表示截断排名 + 1 的分数。
对于我们的示例,这将导致
\[Pct = 31 + (32 - 31) \cdot ({15.15 - 15}) = 31.15\]
我们的 Googlesheet 显示了 如何实现此公式以及
其结果。
请注意,我们使用内置的百分位数函数复制了此结果,即在 Googlesheets 以及 Excel 中为 =PERCENTILE.EXC(B2:B101,0.15)。正如我们稍后将看到的,SPSS 产生相同的结果。
PERCENTILE.EXC 还是 PERCENTILE.INC?
您可能已经注意到,Excel 和 Googlesheets 包含 2 种不同的百分位数公式:
- PERCENTILE.EXC 排除百分位数 0 和 100。也就是说,这些是未定义的。
- PERCENTILE.INC 将百分位数 0 定义为最小值,将百分位数 100 定义为最大值。
那么哪个最好呢?
我个人的意见是,PERCENTILE.EXC 更有意义,因为它符合我们的定义:第 n 个百分位数是将最低 n % 的值与其他值分隔开的值。这意味着第零个百分位数是将所有值中最低 0%(!?!)的值与其他值分隔开的值。
这 - 以及因此的 PERCENTILE.INC - 对我来说没有多大意义。但如果您不同意,我很乐意听取您的意见。
在 SPSS 中计算百分位数
SPSS 用户可以先下载并打开 trout.sav 。现在,找到百分位数的最简单方法是从 A nalyze (分析) D e scriptive statistics (描述性统计)
F requencies (频率),并填写如下所示的对话框。
一个更快的选择是使用 SPSS 语法,如下所示。
***查找长度的百分位数 5、10 和 15。
**
frequencies length
/percentiles 5 10 15.
完成这些步骤再次确认 31.15 厘米是我们的鳟鱼长度的第 15 个百分位数。
四分位数、中位数和箱线图
最常报告的百分位数是
- 第 25 个百分位数,也称为四分位数 1;
- 第 50 个百分位数,也称为四分位数 2 或 中位数 ;
- 第 75 个百分位数,也称为四分位数 3。
这些百分位数通常在 箱线图 中报告,如下所示。
百分位数 - 概念性问题
最后但同样重要的是,我想指出一些教科书很少提及的关于百分位数的 2 个概念性问题。
首先,在重复值的情况下,百分位数可能无法完全将最低 n% 的观测值与其他观测值分开。关于我们的第一个例子,
- 9.0% 的鳟鱼的长度小于 31 厘米;
- 6.0% 的鳟鱼的长度等于 31 厘米;
- 85.0% 的鳟鱼的长度大于 31 厘米。
请注意,这里 没有一个单独的值 完全 将最低 10% 与所有其他观测值分开。
第二个概念性问题恰恰相反:在某些情况下,有无限多个值 完全 分隔最低 n% 的值。这适用于我们的第二个示例,该示例得出的排名为 15.15。
请记住,排名 15 和 16 对应于 31 和 32 厘米。我们的插值公式得出 15.15 厘米,但是
- 31.0000001 厘米也 完全 分隔最低 15%;
- 31.0000002 厘米也 完全 分隔最低 15%;
- 以此类推…
幸运的是,这些概念性问题很少困扰现实世界的数据分析。